Java EE 计划任务

hadoop - 我能否确保新的 Hadoop 任务将在输入文件中失败任务停止的位置恢复？

我正在运行Hadoop2.7.2。假设有10个Hadoop任务正在运行，并且每个任务正在处理1个HDFS输入文本文件。假设其中一项任务失败，比如在读取HDFS输入文件file05的第566行时。默认情况下会发生什么？Hadoop的第二次任务尝试会在file05的第567行恢复吗？或者第二个任务尝试会从file05的第一行开始吗？根据用例，我可能想从失败处理停止的地方继续。或者，在不同的情况下，我可能想要重新开始处理该文件。我该怎么做才能确保Hadoop的第二次任务尝试在file05的第567行继续？我该怎么做才能确保第二个任务尝试从file05的第一行开始？

在 2 节点集群中使用压缩时 Hadoop 映射任务失败。但是当作为单个节点运行时，两个节点都工作正常

Node1:hadoop2.5.2RedhatLinux.el664bit构建64位native库并且它正在运行Node2:hadoop2.5.2RedhatLinux.el532bit构建32位native库并且它正在运行当将mapreduce任务作为单个节点运行时(压缩)作为多节点它也可以工作(没有压缩)但作为具有压缩功能的多节点，它不起作用....map任务只在其中一个节点(有时在node1，有时在node2)完成，在其他节点失败并出现错误，作业失败。Error:java.io.IOException:Spillfailedatorg.apache.hadoop.mapred.M

hadoop - 如何避免 Hadoop 中的 Map/Reduce 任务失败

我有一个迭代次数太多的循环和一个在Reducer函数中计算量很大的函数。while(context.getCounter(SOLUTION_FLAG.SOLUTION_FOUND).getValue()MAX_ITR是迭代次数-用户输入问题是当我在Hadoop集群上运行它时出现超时错误并且Reducer任务被终止17/05/0621:09:43INFOmapreduce.Job:TaskId:attempt_1494129392154_0001_r_000000_0,Status:FAILEDAttemptID:attempt_1494129392154_0001_r_000000_0

apache-spark - 为什么在 hadoop 上使用 H2O 时在 Yarn 中看不到具体的任务执行？

我按照官方要求在yarn上运行了H2O:http://h2o-release.s3.amazonaws.com/h2o/rel-wolpert/11/index.html这是我的命令:cd~/opt/h2o-3.18.0.8-hdp2.6hadoopjarh2odriver.jar-nodes1-mapperXmx6g-output/user/spark/h2o-3_output而且h2o集群运行成功。但是我在h2o-flow中运行exampleflow之后，并没有看到任何与GBM算法相关的计算，只有H2O本身。我想我会看到这样的东西。这是使用RapidMiner的决策树流程图的结果，

hadoop - 对相同的 reduce 任务的两次尝试是否应该继续并行运行？

我的hadoopreduce任务中的Action有外部效果，而且它们不是幂等的。我在任务跟踪器中观察到，尝试了一个reducer，然后启动了同一组键的另一个reducer，而没有杀死原来的reducer。我配置错了吗？这是这个reduce任务的表: 最佳答案这是由于hadoop中的推测执行。如果Hadoop检测到少数集群节点上有一些慢速任务，它是Hadoop指定备份任务的选项。备份任务将优先安排在速度较快的节点上。重复任务中最先完成的任务将成为用于进一步操作的任务。您可以通过将以下参数设置为false来关闭此功能mapred.re

hadoop - 灵活的堆空间分配给 Hadoop MapReduce Mapper 任务

我无法找到配置运行MapReduce1的Hadoop集群(CDH4)的最佳方法。我处于这样一种情况，我需要运行两个需要大量Java堆空间的映射器，以至于我不可能在每个节点上运行超过1个映射器——但同时我希望能够运行作业这可以受益于每个节点的许多映射器。我正在通过Cloudera管理UI配置集群，MaxMapTasks和mapred.map.child.java.opts似乎是相当静态的设置。我想要的是一个类似堆空间池的东西，有XGB可用，它可以容纳这两种作业，而不必每次都重新配置MapReduce服务。如果我运行1个映射器，它应该分配XGB堆-如果我运行8个映射器，它应该分配X/8GB

开源轻量级任务管理工具dootask私有化部署

目录一、什么是dootask二、安装环境三、安装docker四、安装DockerComposev2.0+五、安装dootask一、什么是dootask DooTask是一款轻量级的开源在线项目任务管理工具，提供各类文档协作工具、在线思维导图、在线流程图、项目管理、任务分发、即时IM，文件管理等工具。二、安装环境操作系统：CentOSLinuxrelease7.3.1611(Core) 内存：4G CPU：4核三、安装docker docker的安装步骤比较简单，网上也有很多资料可以参考。yuminstalldocker四、

java - Hadoop 的 TaskTracker 是否为每个任务生成一个新的 JVM？

根据TaskTrackerHadoopWikipage，TaskTracker生成一个新的JVM来完成它正在跟踪的实际工作。然而，页面中有一个拼写错误，不清楚TaskTracker是否为它正在跟踪的所有任务生成一个JVM，或者TaskTracker是否为每个任务生成一个JVM它正在跟踪。我问的原因是因为我很好奇使用静态变量来保存作业级变量是否比简单地在map函数中实例化变量有任何好处。最佳答案它为每个任务生成一个JVM。您可以通过设置此配置参数来重用jvms:mapred.job.reuse.jvm.num.tasks，但这只是

用于异构团队搜索救援的多机器人任务分配框架

用于异构团队搜索救援的多机器人任务分配框架I引言II.相关工作III．问题描述IV.结果与讨论V.结论与未来工作参考文献AMulti-RobotTaskAssignmentFrameworkforSearchandRescuewithHeterogeneousTeams摘要：在灾后场景中，高效的搜索和救援行动需要机器人和人类之间的协作。现有的规划方法侧重于特定方面，但忽视了信息收集、任务分配和规划等关键要素。此外，以前考虑机器人能力和受害者需求的方法由于重复的规划步骤而受到时间复杂性的影响。为了克服这些挑战，我们引入了一个全面的框架——多阶段多机器人任务分配。该框架集成了侦察、任务分配和路径规

performance - 为什么 hadoop map 任务上的更多内存会使 mapreduce 作业变慢？

我想问一下。为什么如果我在mapreduce.map/reduce.memory.mb和mapreduce.map/reduce.java.opts中将mapred-site.xml配置为比默认值更大的值会使我的工作变慢？但是如果我将它配置得太低，那么我会任务失败。而且我认为在这种情况下，我在hadoop上的内存配置是没有必要的......你能给我解释一下吗？最佳答案当您增加mapreduce.map/reduce.memory.mb和mapreduce.map/reduce.java.opts的值时，您的环境中可能会发生什么>